L’objectiu d’aquesta pràctica és obtenir previsions a partir de la darrera observació enregistrada, aplicant la metodologia Box-Jenkins mitjançant els models ARIMA. A més, s’inclouran les extrensions per al tractament d’atípics.

a) Identificació

Aquesta sèrie conté dades sobre la quantitat de cotxes que es fabriquen a Espanya mensualment. Observem com la producció sembla ser que ha mantingut un comportament molt semblant al llarg dels anys.

Atès que tenim un conjunt de dades vinculades a diferents estacions de l’any, hi ha altibaixos en quant a la fabricació. Durant el mes d’Agost, causat per les vacances, s’observa una davallada molt forta en la producció. Aquest fet també passa durant el Desembre, encara que no amb tanta intensitat.

A simple vista, sembla ser que hi ha certa variabilitat de les dades però no queda del tot clar si cal cap tractament per corregir la variància de la sèrie. De la mateixa manera, no s’observen tendències clares llevat d’una petita recessió durant els anys \(2008 - 2014\) deguda a la crisi. Ja per últim sí que s’haurà de fer un tractament per eliminar els patrons estacionals.

Seguidament aplicarem la metodología Box-Jenkins per convertir la sèrie en estacionària i així després poder fer prediccions amb aquesta.

Transformacions

Estudi de la variància

No queda clar si els rangs interquartílics de les capses tenen diferents amplades per mitjanes anuals de producció properes. A més, apareixen observacions que s’allunyen de la mitjana, en alguns casos només en el mes d’Agost i en altres també durant el Desembre.

Aquest fet ens fa sospitar que potser haurem d’aplicar una transformació Box-Cox amb \(\lambda = 0\).

Verificarem si tenim variància constant mitjançant el gràfic de variància contra la mitjana.

Podem veure un augment lleuger de la variància a mesura que les mitjanes de fabricació són més altes. Encara que aquest augment sigui sútil decidim aplicar una transformació Box-Cox.

Verifiquem els efectes de la transformació.

Els valors atípics de la sèrie, tal com era d’esperar, s’han mantingut. No obstant, hem aconseguit tenir una variància més constant que abans per totes les mitjanes anuals de les quals disposem. Ara ja no s’observa el lleuger increment de variància per mitjanes altes.

Donada aquesta sèrie considerem que no és estrictament aplicar la transformació, encara que a l’aplicar-la sí que veiem una certa millora.

El següent pas de la metodologia de Box-Jenkins és l’estudi de l’estacionalitat de la sèrie:

Estudi de l’estacionalitat

Clarament veiem que la mitjana mensual de fabricació de turismes no és la mateixa, ja que els indicadors de la mitjana no formen una línia horitzontal. La sèrie té una component estacional amb davallades en els mesos amb més dies festius (Agost i Desembre). També s’observa com la mitjana de fabricació de cotxes disminueix en mesos com el Gener i l’Abril per l’efecte de la Setmana Santa. El motiu pel qual la mitjana mensual del Febrer és lleugerament inferior a la de Març és per la durada del mes.

Aquesta estacionalitat també es pot observar en el següent gràfic perquè les diferents representacions anuals de la sèrie es comporten de la mateixa manera.

Per corregir el patró estacional aplicarem una diferenciació estacional de freqüència \(12\) al tractar-se de dades mensuals.

Grafiquem els canvis fets.

Es veu com efectivament s’ha corregit l’estacionalitat atès que els indicadors de les mitjanes mensuals es troben alineats. A més, veiem com la mitjana és molt propera a ser nul·la, fet que ens servirà més endavant per eliminar el coeficient intercept dels models proposats. A continuació, procedirem a fer el darrer estudi per aconseguir una sèrie estacionària.

Estudi de la mitjana

Per confirmar si la sèrie necessita diferenciacions regulars per aconseguir mitjana constant, ens fixarem en un possible augment en la variància al diferenciar. Si aquesta augmenta, no aplicarem la transformació. Del contrari, repetirem el procés fins a trobar l’instant en què la variància augmenti després de fer una diferenciació regular.

## [1] "La variància sense aplicar cap diferenciació regular és: 0.036718"
## [1] "La variància aplicant una diferenciació regular és: 0.040993"

No cal cap diferenciació regular perquè aquesta suposaria un increment en la variància. Això significa que la sèrie ja tenia mitjana constant.

Hem aconseguit transformar la sèrie original a estacionària (\(W_t = (1-B^{12})\cdot \log(X_t)\)), obtenint com a resultat:

ACF i PACF

  • Analitza l’ACF i PACF de la sèrie per identificar com a mínim dos models possibles. Raona en quines característiques et bases per identificar aquests models.

Estudiarem l’ACF i PACF de la sèrie estacionària per escollir alguns models.

Veient els gràfics on es presenten els valors d’ACF i PACF podem considerar que el decreixement observat no és suficientment ràpid i, per tant, tindríem un infinit nombre de valors no nuls en la part regular. Per això proposem un model \(ARMA(1,1)\).

En quant a la part estacional, observem com els valors sí que decreixen suficientment ràpid per poder considerar models diferents. En aquest cas, si observem la gràfica de PACF podem atribuir un model estacional de \(AR(2)\). També podem considerar un model \(MA(1)\) si mirem la funció d’ACF.

Alternativament al model \(ARMA(1,1)\) proposat per la part regular, podríem considerar que el PACF decreix d’una forma més significant que el ACF, fet que ens permet plantejar també un \(AR(7)\).

Considerant el fet que es tracta de models \(ARIMA\) estacionals, els quatre models que es proposen per a la sèrie estacionària \(W_t\) són:

  1. \(\bf{SARIMA(1,0,1)(2,0,0)_{12}}\)
  2. \(\bf{SARIMA(1,0,1)(0,0,1)_{12}}\)
  3. \(\bf{SARIMA(7,0,0)(2,0,0)_{12}}\)
  4. \(\bf{SARIMA(7,0,0)(0,0,1)_{12}}\)

b) Estimació

  • Utilitza R per estimar quatre dels models identificats.
## _______ MODEL 1 _______
## 
## Call:
## arima(x = d12lnserie, order = c(1, 0, 1), seasonal = list(order = c(2, 0, 0), 
##     period = 12))
## 
## Coefficients:
##          ar1      ma1     sar1     sar2  intercept
##       0.9128  -0.6041  -0.6356  -0.2713     0.0072
## s.e.  0.0322   0.0556   0.0601   0.0594     0.0190
## 
## sigma^2 estimated as 0.01861:  log likelihood = 162.3,  aic = -312.6
## _______ MODEL 2 _______
## 
## Call:
## arima(x = d12lnserie, order = c(1, 0, 1), seasonal = list(order = c(0, 0, 1), 
##     period = 12))
## 
## Coefficients:
##          ar1      ma1     sma1  intercept
##       0.9294  -0.6072  -0.7201     0.0041
## s.e.  0.0288   0.0550   0.0465     0.0130
## 
## sigma^2 estimated as 0.01721:  log likelihood = 171.85,  aic = -333.7
## _______ MODEL 3 _______
## 
## Call:
## arima(x = d12lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, 0, 0), 
##     period = 12))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4     ar5     ar6      ar7     sar1
##       0.2306  0.2887  0.2787  -0.0717  0.0326  0.1061  -0.0993  -0.6734
## s.e.  0.0591  0.0604  0.0636   0.0670  0.0638  0.0627   0.0612   0.0626
##          sar2  intercept
##       -0.2911     0.0075
## s.e.   0.0601     0.0168
## 
## sigma^2 estimated as 0.0171:  log likelihood = 173.94,  aic = -325.89
## _______ MODEL 4 _______
## 
## Call:
## arima(x = d12lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, 0, 1), 
##     period = 12))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4     ar5     ar6      ar7     sma1
##       0.2597  0.2955  0.2313  -0.0680  0.0576  0.1101  -0.0845  -0.7121
## s.e.  0.0591  0.0607  0.0631   0.0663  0.0648  0.0637   0.0612   0.0485
##       intercept
##          0.0040
## s.e.     0.0119
## 
## sigma^2 estimated as 0.01626:  log likelihood = 179.98,  aic = -339.97

Per tal d’eliminar els coeficients no rellevants en els models, estudiarem la seva significància. Ens basarem en el \(t-\)ràtio, que pren com a test d’hipòtesi:

\[ \begin{cases} H_0: \zeta_i = 0 \\ H_1: \zeta_i \ne 0 \end{cases} \]

sent \(\zeta_i\) un coeficient del model. L’estadístic d’aquest test és: \(\left(\mid \hat t\mid = \left \vert \dfrac{\zeta}{se(\zeta)} \right\vert \right)\). Un coeficient serà significatiu si i només si \(\mid \hat t \mid > 2\).

Procedim doncs a eliminar coeficients en cas que hi hagi.

## - Significància dels coeficients del model 1:  TRUE TRUE TRUE TRUE FALSE

Atès que el coeficient intercept no és significatiu, l’eliminem del model i tornarem a estimar el model per a la sèrie original indicant el nombre de diferenciacions de la part regular i estacionària en el mateix mètode d’estimació, sobre la sèrie original.

## 
## Call:
## arima(x = lnserie, order = c(1, 0, 1), seasonal = list(order = c(2, 1, 0), period = 12))
## 
## Coefficients:
##          ar1      ma1     sar1     sar2
##       0.9139  -0.6048  -0.6356  -0.2712
## s.e.  0.0319   0.0554   0.0602   0.0595
## 
## sigma^2 estimated as 0.01862:  log likelihood = 162.23,  aic = -314.46

Tornem a estudiar la significància dels coeficients i veiem que ara sí que tots expliquen part de la variabilitat de la sèrie. A més, com el valor d’AIC és inferior sí que eliminem el coeficient.

## - Significància dels coeficients:  TRUE TRUE TRUE TRUE

Concluïm que el model resultant és:

Model 1: \(\boxed{\big(1 - 0.9139B\big)\big(1 + 0.6356B^{12} + 0.2712B^{24}\big)\big(1-B^{12}\big)log\big(X_t\big) = \big(1 - 0.6048B\big)Z_t}\)

Ara repetirem aquest procès per la resta de models.

## - Significància dels coeficients del model 2:  TRUE TRUE TRUE FALSE

De la mateixa manera que el model anterior, el coeficient intercept torna a no ser significatiu. Si recordem els resultats obtinguts del primer exercici, aquest fet no ens hauria de sorprendre ja que hem vist que la mitjana de la sèrie estacionària era quasi nul·la.

Eliminem doncs aquest coeficient.

## 
## Call:
## arima(x = lnserie, order = c(1, 0, 1), seasonal = list(order = c(0, 1, 1), period = 12))
## 
## Coefficients:
##          ar1      ma1     sma1
##       0.9296  -0.6071  -0.7206
## s.e.  0.0287   0.0549   0.0465
## 
## sigma^2 estimated as 0.01722:  log likelihood = 171.8,  aic = -335.61
## - Significància dels coeficients:  TRUE TRUE TRUE

Com l’AIC torna a millorar i tots els coeficients són significatius, el model resultant seria:

Model 2: \(\boxed{\big(1 - 0.9296B\big)\big(1 - B^{12}\big)log\big(X_t\big) = \big(1 -0.6071B -0.7206B^2\big)Z_t}\)

Fem l’estudi pel tercer model.

## - Significància dels coeficients del model 3: 
##  TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE TRUE FALSE

De la mateixa manera que els dos primers models, el coeficient intercept torna a ser no significatiu, aquest serà el primer coeficient que traurem del model.

## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4     ar5     ar6      ar7     sar1
##       0.2311  0.2891  0.2790  -0.0712  0.0330  0.1066  -0.0989  -0.6736
## s.e.  0.0591  0.0604  0.0636   0.0671  0.0638  0.0627   0.0612   0.0626
##          sar2
##       -0.2910
## s.e.   0.0601
## 
## sigma^2 estimated as 0.01711:  log likelihood = 173.85,  aic = -327.69
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE TRUE

Ens adonem que hi ha coeficients no significatius. Començarem traient el que té el valor de \(\mid \hat t \mid\) més petit i tornarem a ajustar per verificar la significància sense aquell coeficient. En aquest cas eliminem primer el coeficient \(ar5\).

## Warning in arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, :
## some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12), 
##     fixed = c(NA, NA, NA, NA, 0, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3     ar4  ar5     ar6      ar7     sar1     sar2
##       0.2279  0.2992  0.2861  -0.069    0  0.1121  -0.0910  -0.6746  -0.2915
## s.e.  0.0588  0.0572  0.0621   0.067    0  0.0618   0.0593   0.0626   0.0600
## 
## sigma^2 estimated as 0.01712:  log likelihood = 173.71,  aic = -329.43
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE TRUE TRUE

Ens adonem que l’AIC s’ha reduït i que seguim tenint paràmetres no significatius en el model, així que menyspreem el coeficient \(ar4\), el de \(t\)-ràtio més petita.

## Warning in arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, :
## some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12), 
##     fixed = c(NA, NA, NA, 0, 0, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sar1     sar2
##       0.2116  0.2868  0.2802    0    0  0.0984  -0.1121  -0.6641  -0.2916
## s.e.  0.0568  0.0560  0.0621    0    0  0.0606   0.0558   0.0620   0.0601
## 
## sigma^2 estimated as 0.0172:  log likelihood = 173.18,  aic = -330.37
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE TRUE TRUE TRUE

Tornem a verificar que l’AIC es redueix, fet que significa que el model ajusta millor sense el coeficient eliminat, i procedim a treure el darrer coeficient no significatiu que queda (\(ar6\)).

## Warning in arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, :
## some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12), 
##     fixed = c(NA, NA, NA, 0, 0, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5  ar6      ar7     sar1     sar2
##       0.2158  0.2887  0.3169    0    0    0  -0.0787  -0.6536  -0.2883
## s.e.  0.0570  0.0563  0.0583    0    0    0   0.0521   0.0623   0.0603
## 
## sigma^2 estimated as 0.01735:  log likelihood = 171.87,  aic = -329.74
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE TRUE TRUE

El que podem observar és que el nostre valor d’AIC ha empitjorat i, per tant, no hem d’eliminar aquest coeficient. Així doncs, el nostre model resultant seria:

Model 3:

\(\boxed{\big(1 - 0.2116B - 0.2868B^2 -0.2802B^3 - 0.0984B^6 +0.1121B^7\big)\big(1 +0.6641B^{12} + 0.2916B^{24}\big)\big(1-B^{12}\big)log\big(X_t\big) = Z_t}\)

Ara fem el mateix procès pel nostre últim model.

## - Significància dels coeficients del model 4:  TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE FALSE

El coeficient intercept no és significatiu en aquest model, per tant l’eliminem.

## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), period = 12))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4     ar5     ar6      ar7     sma1
##       0.2601  0.2956  0.2313  -0.0678  0.0577  0.1102  -0.0845  -0.7128
## s.e.  0.0591  0.0607  0.0631   0.0663  0.0648  0.0637   0.0612   0.0485
## 
## sigma^2 estimated as 0.01626:  log likelihood = 179.93,  aic = -341.86
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE

Com al model anterior, tenim 4 coeficients que inicialment no són significatius. Ara eliminarem aquests coeficients començant des del més petit en \(t\)-ràtio: coeficient \(ar5\). Destaquem que l’AIC del model ha millorat a l’eliminar la mitjana.

## Warning in arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, :
## some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), period = 12), 
##     fixed = c(NA, NA, NA, NA, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4  ar5     ar6      ar7     sma1
##       0.2553  0.3101  0.2441  -0.0616    0  0.1205  -0.0714  -0.7115
## s.e.  0.0590  0.0586  0.0616   0.0660    0  0.0627   0.0595   0.0486
## 
## sigma^2 estimated as 0.01631:  log likelihood = 179.53,  aic = -343.06
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE TRUE

Com l’AIC millora i ara el coeficient no significant més petit és el \(ar4\), el traiem.

## Warning in arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, :
## some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), period = 12), 
##     fixed = c(NA, NA, NA, 0, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sma1
##       0.2422  0.2978  0.2380    0    0  0.1073  -0.0876  -0.7061
## s.e.  0.0574  0.0571  0.0614    0    0  0.0613   0.0570   0.0484
## 
## sigma^2 estimated as 0.01637:  log likelihood = 179.1,  aic = -344.2
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE TRUE

Seguim aplicant la mateixa estratègia i en aquest cas hem d’eliminar el coeficient \(ar7\).

## Warning in arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, :
## some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), period = 12), 
##     fixed = c(NA, NA, NA, 0, 0, NA, 0, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6  ar7     sma1
##       0.2320  0.2825  0.2381    0    0  0.0702    0  -0.7174
## s.e.  0.0573  0.0564  0.0615    0    0  0.0565    0   0.0466
## 
## sigma^2 estimated as 0.0165:  log likelihood = 177.92,  aic = -343.85
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE TRUE

Veiem amb aquest canvi el nostre AIC ha empitjorat i, per tant, no ens convé eliminar aquest coeficient ni cap altre.

El nostre model final resulta com:

Model 4: \(\boxed{\big(1 - 0.2422 - 0.2978 - 0.2380 - 0.1073 +0.0876\big)\big(1-B^{12}\big)log\big(X_t\big) = (1 - 0.7061B)Z_t}\)

Un cop hem afitat tots els models, el següent pas a fer és verificar com de bons són.

c) Validació

Anàlisi complet dels residus

  • Realitza l’anàlisi de residus complet justificant les premises a partir dels resultats gràfics corresponents.

Quan ajustem un model a una sèrie, s’han de complir certs criteris en els residus per tal de poder considerar que el model és bo. En cas que hi hagi una part d’informació sobre la sèrie que es pugui extreure a partir dels residus, significarà que no estem ajustant del tot bé i que ens estem deixant d’explicar una part.

Aquest estudi es basarà en les tres premises sobre els residus que s’han de complir: variància constant, que segueixin una distribució normal i independència entre els residus.

Estudi de la variància

Per estudiar la variància dels residus, ho farem mitjançant el gràfic dels residus i l’ajust suau dels residus. Un cop fet l’estudi, ens vam adonar que quasi tots els models presentaven les mateixes característiques en quant a variància dels residus. Per aquest motiu vam decidir agrupar tots els gràfics i després de tot les conclusions generals dels models.

## La diferència entre el valor màxim dels residus i l'interval de confiança és:  0.07478358
## La diferència entre el valor mínim dels residus i l'interval de confiança és:  0.06372665

## La diferència entre el valor màxim dels residus i l'interval de confiança és:  0.1484775
## La diferència entre el valor mínim dels residus i l'interval de confiança és:  0.01036758

## La diferència entre el valor màxim dels residus i l'interval de confiança és:  0.1062801
## La diferència entre el valor mínim dels residus i l'interval de confiança és:  0.01905292

## La diferència entre el valor màxim dels residus i l'interval de confiança és:  0.1515269
## La diferència entre el valor mínim dels residus i l'interval de confiança és:  0.02545246

En cap dels gràfics de l’ajust suau dels residus s’observa una línia recta, com esperaríem si els residus tinguessin variància constant. Per tant podem descartar la homoscedasticitat. Creiem que tots els models sí que presenten un comportament propi de la homoscedascitat a partir de l’any 2005, a excepció del primer. Això podria ser a causa dels residus dels primers anys de la sèrie els quals semblen tenir una variància més gran que la resta de residus i això faria que l’ajust no fos constant al llarg del temps.

D’altra banda, hem de saber que en els gràfics dels residus només hauríem de tenir un \(0.3 \%\) de les mostres totals fora de les bandes de confiança, en aquest cas \(\dfrac{0.3}{100} · 300 = 0.9\) observacions com a màxim.

Observacions estimades que se surten de la regió de confiança:

\(\triangleright\) Model 1 \(\approx\) 4

\(\triangleright\) Model 2 \(\approx\) 2 - 3

\(\triangleright\) Model 3 \(\approx\) 4 - 5

\(\triangleright\) Model 4 \(\approx\) 3

Així doncs, refermem les conclusions anteriors i podem negar l’homoscedascitat perquè en tots els casos observem un elevat nombre de residus que superen els llindars de confiança.

Entre els models que tenen en la part regular un \(ARMA(1,1)\), el model \(2\) presenta un menor nombre d’observacions fora i un ajust suau més semblant a una recta.

Entre els models que tenen en la part regular un \(AR(7)\), el model \(4\) presenta un menor nombre d’observacions fora malgrat que l’ajust suau és molt semblant entre els models.

En conclusió, cap dels models proposats presenta variància constant dels residus tot i que els models que s’apropen més a tenir-ne són el \(2\) i el \(4\).

Estudi de la normalitat

Per fer l’estudi de la normalitat dels residus compararem el comportament d’aquests amb el de la distribució normal fent servir un primer gràfic de quantils i l’histograma dels residus.

A continuació farem l’estudi dels gràfics de percentils que s’obtenen fent servir els residus de cada model.

El que esperaríem veure a un gràfic d’aquest estil quan es fa un estudi de residus que segueixen un distribució normal, és que els valors (representats com cercles negres) s’ajustin a la línia de colors discontínua, la qual respresenta una distribució normal.

Com podem observar, el comportament dels residus de tots els models no és el desitjat. En els quatre casos podem veure com, sobretot a l’inici i al final, no s’adapten a la línia de la distribució normal.

Tenint en compte només aquest gràfic no sembla a priori que tinguem un model amb residus considerablement millors que la resta. En els models \(2\) i \(4\), les seves cues superiors es troben lleugerament més distanciades de la Normal.

És important saber que hem de parlar d’atípics en les cues en tots els models i no de cues pesants perquè no hi ha una gran quantitat d’observacions acumulades alla.

A la següent part farem un estudi dels histogrames que obtenim dels quatre models finals.

El que veiem en aquests gràfics també ens fa pensar que cap dels models té residus que segueixin una distribució normal. Els histogrames dels quatre models són exemples clars de curtosi positiva on les barres properes a la mitjana tenen un valor més elevat del que ens esperaríem. Així doncs, acabem tenint una distribució amb major pes en l’esperança i amb atípics a les cues.

El model 2 és el que presenta una major curtosi d’entre els quatre.

Apliquem el test de Shapiro-Wilk per validar les conclusions anteriors.

## 
##  Shapiro-Wilk normality test
## 
## data:  resi1
## W = 0.97529, p-value = 4.838e-05
## 
##  Shapiro-Wilk normality test
## 
## data:  resi2
## W = 0.96516, p-value = 1.269e-06
## 
##  Shapiro-Wilk normality test
## 
## data:  resi3
## W = 0.97315, p-value = 2.125e-05
## 
##  Shapiro-Wilk normality test
## 
## data:  resi4
## W = 0.96637, p-value = 1.9e-06

El test de Shapiro-Wilk planteja com a hipòtesi nula el fet que un conjunt d’observacions provenen d’una distribució Normal. L’estadístic \(W\) determina, mitjançant una magnitud tabulada que pren valors que oscil·len entre \(0\) i \(1\), les desviacions que hi ha entre els valors de la mostra respecte els esperats d’una distribució Normal. Quan \(W\) sigui inferior al valor crític tabulat, es rebutjarà la hipòtesi nula.

En el nostre cas, com el \(p\)-valor és inferior que \(0.05\) als quatre casos, rebutgem la hipòtesi nula i per tant podem dir que les dades són significantment diferents a una distribució Normal, és a dir, que els residus no provenen d’una distribució Normal. El model que més proper es troba al \(p\)-valor és el primer, fet que podíem intuir veient les gràfiques pertanyents a aquest model.

Fins ara, hem vist que cap dels quatre models té variància constant o distribució normal dels residus.

Estudi de la independència

Per fer l’estudi de la independència dels residus estudiarem els ACF i PACF dels residus del model. En el cas que cap de les observacions surtin fora de les bandes de confiança, o quasi cap, podrem considerar que els residus són compatibles amb un soroll blanc, i que per tant, tenen independència.

És molt evident que no hi ha indepèndencia dels residus ja que s’observa una gran correlació entre residus a l’haver un gran nombre de barres que sobrepassen el llindar de confiança de l’ACF.

Aquest model tampoc compleix amb la hipòtesi d’independència perquè observem numeroses barres de correlació que es troben per sobre del llindar de confiança que proporciona aquesta prova. No obstant, el PACF té menys observacions fora que l’anterior.

El model \(3\) ja presenta una estructura més semblant a un soroll blanc durant les primeres mostres, però amb el pas del temps el nombre d’observacions que se surten augmenta en el gràfic d’ACF. En el gràfic del PACF quasi totes les observacions queden dins.

El gràfic d’ACF no permet acceptar la hipòtesi d’independència dels residus.

Observem que els dos gràfics pràcticament no tenen observacions fora de la regió, i aquelles poques que surten poden ser causades per l’aleatorietat del residus. Amb aquests gràfics dubten una mica de la independència, acabarem de concloure amb l’ajuda de les proves de continuació.

A continuació comprovarem els resultats realitzant un test de Ljung-Box.

El test de Ljung-Box verifica si un conjunt d’observacions retardades són aleatòries i independents usant l’estadístic \(Q\). Cadascun dels cercles representa el \(p\)-valor de l’estadístic \(Q\) de Ljung-Box. Per tal de poder acceptar que els residus del nostre model són compatibles amb el soroll blanc i, per tant, independents entre ells, totes les boles han de caure per sobre de la línia blava que mostra una significació del \(0.05 \%\).

## _______ MODEL 1 _______

## 
##  Box-Ljung test
## 
## data:  resi1
## X-squared = 296.66, df = 72, p-value < 2.2e-16
## _______ MODEL 2 _______

## 
##  Box-Ljung test
## 
## data:  resi2
## X-squared = 168.18, df = 72, p-value = 1.149e-09
## _______ MODEL 3 _______

## 
##  Box-Ljung test
## 
## data:  resi3
## X-squared = 106.03, df = 72, p-value = 0.005607
## _______ MODEL 4 _______

## 
##  Box-Ljung test
## 
## data:  resi4
## X-squared = 80.33, df = 72, p-value = 0.2345

Conclusions sobre la independència:

\(\triangleright\) Model 1 \(\approx\) A excepció de les dues primers mostres, tots els \(p\)-valors cauen per sota la línia blava indicant que no es tracta de residus independents.

\(\triangleright\) Model 2 \(\approx\) Un altre cop, amb el test de Ljung-Box som capaços d’afirmar que els residus no tenen independència entre ells per els p-valors (representats com a cercles).

\(\triangleright\) Model 3 \(\approx\) Observem que les \(48\) primeres observacions presenten independència però a partir d’allà estan correlades. No posem acceptar la hipòtesis tot i ser millor que els dos primers models.

\(\triangleright\) Model 4 \(\approx\) Malgrat haver independència en les primeres \(72\) mostres, veiem una tendència a la baixa en els \(p\)-valors,així que augmentarem el gof.lag per comprovar si realment el model té independència.

## 
##  Box-Ljung test
## 
## data:  resi4
## X-squared = 130.35, df = 96, p-value = 0.0113

Veiem com només les \(75\) primeres mostres tenen independència però a partir d’aquell moment ja no.

Conclusions finals:

Dels tres models hem vist que no hi ha cap que compleixi cap dels tres requisits pels residus (variància constant, normalitat dels residus i independència dels residus).

S’ha demostrat que el primer model és aquell en el qual els residus segueixen una distribució més semblant a una Normal, tot i no ser-ho.

Per últim, amb els darrers tests hem comprovat que el quart model és el més proper a tenir residus independents. Atès que hi ha una gran quantitat de residus que sí que es comporten de manera independent, es podria considerar independència en els residus. Nosaltres, però, no ho considerarem.

AR i MA infinits

  • Incloeu dades de les expressions dels models com AR i MA infinits, si són estacionaris i/o inveribles y les mesures d’adequació a les dades.

EXPRESSIONS:

Per calcular les expressions dels models com \(AR\) i \(MA\) infinits fem servir la comanda ARMAtoMA que retornarà:

## _______ MODEL 1 _______
## AR infinit
##  [1]  0.3091240565  0.1869435449  0.1130545755  0.0683700368  0.0413469504
##  [6]  0.0250046715  0.0151216375  0.0091448480  0.0055303697  0.0033445049
## [11]  0.0020225977 -0.6344185664  0.1972318681  0.1192764646  0.0721327398
## [16]  0.0436224545  0.0263807882  0.0159538475  0.0096481291  0.0058347302
## [21]  0.0035285676  0.0021339101  0.0012904875 -0.2704340894  0.0843108953
## [26]  0.0509872244  0.0308346513  0.0186473323  0.0112770208  0.0068198065
## [31]  0.0041242950  0.0024941777  0.0015083602  0.0009121846  0.0005516459
## [36]  0.0003336092
## MA infinit
##  [1]  0.309124057  0.282501227  0.258171248  0.235936650  0.215616972
##  [6]  0.197047296  0.180076903  0.164568060  0.150394891  0.137442365
## [11]  0.125605355 -0.520853949 -0.091590284 -0.083702213 -0.076493490
## [16] -0.069905607 -0.063885095 -0.058383090 -0.053354937 -0.048759826
## [21] -0.044560462 -0.040722761 -0.037215577  0.098815460  0.009978336
## [26]  0.009118967  0.008333610  0.007615891  0.006959984  0.006360566
## [31]  0.005812772  0.005312156  0.004854655  0.004436556  0.004054464
## [36]  0.091670857

Atès que no podem treballar amb infinits coeficients, el que farem és trucar a partir del moment que els coeficients tinguin una significació \(\alpha < 0.05\). Així aconseguirem, al preu de perdre informació, aconseguir emmagatzemar els \(AR\) i \(MA\) infinits.

L’expressió \(AR\) infinita del model 1 és:

\(Xt = 0.3039X_{t-1} + 0.1869X_{t-2} + ... + 0.0843X_{t-25}+0.0509X_{t-26}\)

L’expressió \(MA\) infinita del model 1 és:

\(Xt = 0.3091Z_{t-1} + 0.2825Z_{t-2}+...+0.0988Z_{t-24}\)

## _______ MODEL 2 _______
## AR infinit
##  [1]  0.322489614  0.195778561  0.118854200  0.072154585  0.043803956
##  [6]  0.026592718  0.016144037  0.009800800  0.005949917  0.003612105
## [11]  0.002192854 -0.719270788  0.233194853  0.141569064  0.085944435
## [16]  0.052175565  0.031674996  0.019229410  0.011673884  0.007087038
## [21]  0.004302433  0.002611942  0.001585671 -0.518304658  0.168042712
## [26]  0.102016186  0.061932482  0.037598272  0.022825341  0.013856919
## [31]  0.008412326  0.005106996  0.003100380  0.001882194  0.001142651
## [36] -0.373491384
## MA infinit
##  [1]  0.32248961  0.29977811  0.27866608  0.25904087  0.24079778  0.22383947
##  [7]  0.20807546  0.19342164  0.17979981  0.16713732  0.15536658 -0.57617723
## [13] -0.09813306 -0.09122198 -0.08479763 -0.07882571 -0.07327437 -0.06811398
## [19] -0.06331702 -0.05885788 -0.05471279 -0.05085961 -0.04727779 -0.04394823
## [25] -0.04085315 -0.03797605 -0.03530157 -0.03281543 -0.03050439 -0.02835610
## [31] -0.02635911 -0.02450275 -0.02277713 -0.02117304 -0.01968192 -0.01829581

L’expressió \(AR\) infinita del model 2 és:

\(Xt = 0.3224X_{t-1} + 0.1957X_{t-2}+ ...- 0.3734X_{t-36}\)

L’expressió \(MA\) infinita del model 2 és:

\(Xt = 0.3224Z_{t-1} + 0.2997Z_{t-2} +...-0.0547Z_{t-21}-0.0508Z_{t-22}\)

## _______ MODEL 3 _______
## AR infinit
##  [1]  0.21159612  0.28683534  0.28021403  0.00000000  0.00000000  0.09838022
##  [7] -0.11208178  0.00000000  0.00000000  0.00000000  0.00000000 -0.66408381
## [13]  0.14051755  0.19048270  0.18608560  0.00000000  0.00000000  0.06533271
## [19] -0.07443169  0.00000000  0.00000000  0.00000000  0.00000000 -0.29158386
## [25]  0.06169801  0.08363656  0.08170589  0.00000000  0.00000000  0.02868608
## [31] -0.03268124  0.00000000  0.00000000  0.00000000  0.00000000  0.00000000
## MA infinit
##  [1]  0.211596116  0.331608257  0.411074293  0.241390891  0.261909296
##  [6]  0.338227428  0.123068662  0.205354713  0.176803107  0.108473556
## [11]  0.129920407 -0.552016764 -0.074944636 -0.131381303 -0.209601979
## [16] -0.112181058 -0.120049527 -0.185182159 -0.050555029 -0.101978990
## [21] -0.093865204 -0.050822754 -0.065490745  0.089922846  0.001782947
## [26]  0.003452472  0.028635092  0.013069597  0.011199774  0.030329554
## [31]  0.003389086  0.012694858  0.014587226  0.005753922  0.008595889
## [36]  0.103691802

L’expressió \(AR\) infinita del model 3 és:

\(Xt = 0.2115X_{t-1} + 0.2868X_{t-2} + ... + 0.0836X_{t-26} + 0.0817X_{t-27}\)

L’expressió \(MA\) infinita del model 3 és:

\(Xt = 0.2115Z_{t-1} + 0.3316Z_{t-2} + ... + 0.1036Z_{t-36}\)

## _______ MODEL 4 _______
## AR infinit
##  [1]  0.24217174  0.29776121  0.23797352  0.00000000  0.00000000  0.10725989
##  [7] -0.08762634  0.00000000  0.00000000  0.00000000  0.00000000 -0.70610096
## [13]  0.17099770  0.21024948  0.16803333  0.00000000  0.00000000  0.07573631
## [19] -0.06187304  0.00000000  0.00000000  0.00000000  0.00000000 -0.49857857
## [25]  0.12074164  0.14845736  0.11864850  0.00000000  0.00000000  0.05347748
## [31] -0.04368861  0.00000000  0.00000000  0.00000000  0.00000000 -0.35204681
## MA infinit
##  [1]  0.24217174  0.35640836  0.39639490  0.25975069  0.26575105  0.34329246
##  [7]  0.16242885  0.22180427  0.19506076  0.14506287  0.15173863 -0.56620605
## [13] -0.07007546 -0.13989706 -0.18800061 -0.10539349 -0.11123027 -0.17708559
## [19] -0.05898777 -0.10234914 -0.09239828 -0.06172007 -0.06951116 -0.06644731
## [25] -0.04228679 -0.05237699 -0.04203044 -0.03436112 -0.03534812 -0.02982998
## [31] -0.02463946 -0.02517362 -0.02045034 -0.01831436 -0.01729569 -0.01461060

L’expressió AR infinita del model 3 és:
\(Xt = 0.2421X_{t-1} + 0.2977X_{t-2} + ... - 0.352X_{t-36}\)

L’expressió MA infinita del model 3 és: \(Xt = 0.2421Z_{t-1} + 0.3564Z_{t-2} + ... - 0.0523Z_{t-26}\)

Invertibilitat i causalitat

Recordem que per veure si el model estimat és causal hem de fixar-nos a la part \(AR\), mentre que per estudiar si la sèrie és invertible, hem de mirar només la part de mitjana mòbil.

En el cas que alguna de les arrels caigui dins del cercle unitari no es podria considerar causal (per un \(AR\)) o invertible (considerant \(MA\)). Anem a comprovar si en els nostres models les arrels són inferiors a \(1\).

## _______ MODEL 1 _______
## Arrels de l'AR
##  [1] 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874
##  [9] 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874
## [17] 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874 1.055874 1.094240
## [25] 1.055874
## 
## FALSE 
##    25
## Arrels del MA
## [1] 1.653569
## 
## FALSE 
##     1

El model \(1\) és causal i invertible perquè no tenim cap arrel dins del cercle unitari, ja sigui arrel \(MA\) o \(AR\).

## _______ MODEL 2 _______
## Arrels de l'AR:
## [1] 1.075761
## Arrels dins del cercle unitari:
## 
## FALSE 
##     1
## Arrels del MA:
##  [1] 1.027682 1.027682 1.027682 1.027682 1.027682 1.027682 1.027682 1.027682
##  [9] 1.027682 1.027682 1.027682 1.027682 1.647216
## Arrels dins del cercle unitari:
## 
## FALSE 
##    13

El segon model també és invertible i causal, inclús podem dir que és millor model predictor ja que les arrels són més properes al cercle unitàri que les que del primer model.

## _______ MODEL 3 _______
## Arrels de l'AR:
##  [1] 1.052692 1.052692 1.052692 1.340596 1.052692 1.052692 1.052692 1.052692
##  [9] 1.052692 1.052692 1.052692 1.052692 1.052692 1.052692 1.052692 1.052692
## [17] 1.052692 1.052692 1.052692 1.052692 1.052692 1.052692 1.052692 1.052692
## [25] 1.166220 1.541228 1.052692 1.242501 1.556176 1.242501 1.541228
## Arrels dins del cercle unitari:
## 
## FALSE 
##    31

En aquest cas el model és causal ja que no hi ha cap arrel AR menor o igual a \(1\), i també és invertible. Això ho sabem perquè no tenim components en la mitjana mòbil.

## _______ MODEL 4 _______
## Arrels de l'AR:
## [1] 1.590745 1.281119 1.281119 1.121690 1.350746 1.590745 1.813586
## Arrels dins del cercle unitari:
## 
## FALSE 
##     7
## Arrels del MA:
##  [1] 1.029424 1.029424 1.029424 1.029424 1.029424 1.029424 1.029424 1.029424
##  [9] 1.029424 1.029424 1.029424 1.029424
## Arrels dins del cercle unitari:
## 
## FALSE 
##    12

L’últim model també és causal i invertible ja que no tenim cap arrel que sigui menor o igual a \(1\).

Mesures d’adeqüació de les dades

Els criteris AIC i BIC són dos criteris de selecció de models. Ens serveixen per comparar models alternatius d’un mateix conjunt de dades.

Amb el criteri del BIC, es penalitza més el fet d’afegir coeficients, per tant és molt restrictiu amb models amb alt nombre de coeficients, com és el cas amb el model \(3\) i \(4\).

Ambdós criteris permeten fer-se una idea de com de bé s’ajusta un model i la complexitat d’aquest.

Les mesures d’adequació pel model 1 són:

## [1] "AIC: -314.456927"
## [1] "BIC: -296.142124"

Les mesures d’adequació pel model 2 són:

## [1] "AIC: -335.605145"
## [1] "BIC: -320.953303"

Les mesures d’adequació pel model 3 són:

## [1] "AIC: -330.369287"
## [1] "BIC: -301.065603"

Les mesures d’adequació pel model 4 són:

## [1] "AIC: -344.197026"
## [1] "BIC: -318.556302"

El que podem veure d’aquest estudi és que fixant-nos només en criteri AIC, el millor model és el quart. Té un AIC amb valor \(-344.197\), considerablement superior al segon millor AIC (\(-335.605\)), el qual s’aconsegueix ambel segon model.

No obstant, hem de tenir en compte que el model \(4\) és molt més complex en comparació al segon. Això ho veiem clar quan analitzem el criteri BIC ja que el segon model és el que té un BIC més baix perquè tot i ajustar pitjor té menys paràmetres en comparació.

Estabilitat dels models

  • Verifica l’estabilitat del model i avalua la seva capacitat de predicció, reservant les últimes 12 observacions.

Per tal de poder avaluar la capacitat de predicció, el que fem és separar les últimes darreres \(12\) observacions (\(1\) any) per veure es veu afectat el model proposat sense aquesta part de la sèrie.

Un cop hem extret les observacions del darrer any, procedim a fer ajustar els diferents models proposats sobre la sèrie i avaluar la seva capacitat predictora. Recordem que per tal de poder considerar que un model estable s’han de complir tres requisits:

  • Mateixa significància en els coeficients
  • Mateix signe en els coeficients
  • Poca diferència entre els valors dels coeficients

Ajustem el primer model i estudiem la seva estabilitat:

## _______ MODEL 1 _______
## 
## Call:
## arima(x = lnserie, order = c(1, 0, 1), seasonal = list(order = c(2, 1, 0), period = 12))
## 
## Coefficients:
##          ar1      ma1     sar1     sar2
##       0.9139  -0.6048  -0.6356  -0.2712
## s.e.  0.0319   0.0554   0.0602   0.0595
## 
## sigma^2 estimated as 0.01862:  log likelihood = 162.23,  aic = -314.46
## _______ MODEL 1 ENFINESTRAT _______
## 
## Call:
## arima(x = lnserie_enf, order = c(1, 0, 1), seasonal = list(order = c(2, 1, 0), 
##     period = 12))
## 
## Coefficients:
##          ar1      ma1     sar1     sar2
##       0.9134  -0.5955  -0.6200  -0.3001
## s.e.  0.0325   0.0568   0.0609   0.0604
## 
## sigma^2 estimated as 0.01852:  log likelihood = 156.06,  aic = -302.12
## -------------------------
## Els coeficients tenen la mateixa significància?
##  ar1  ma1 sar1 sar2 
## TRUE TRUE TRUE TRUE
## Els coeficients tenen el mateix signe?
##  ar1  ma1 sar1 sar2 
## TRUE TRUE TRUE TRUE
## Diferència entre coeficients:
##           ar1           ma1          sar1          sar2 
##  0.0005076124 -0.0092175866 -0.0156227644  0.0289303458

Podem afirmar que el model 1 és estable perquè els coeficients no canvien de significància ni tampoc de signe, i podem veure com la diferència entre els coeficients és considerablement petita.

Ajustem el segon model i estudiem la seva estabilitat:

## _______ MODEL 2 _______
## 
## Call:
## arima(x = lnserie, order = c(1, 0, 1), seasonal = list(order = c(0, 1, 1), period = 12))
## 
## Coefficients:
##          ar1      ma1     sma1
##       0.9296  -0.6071  -0.7206
## s.e.  0.0287   0.0549   0.0465
## 
## sigma^2 estimated as 0.01722:  log likelihood = 171.8,  aic = -335.61
## _______ MODEL 2 ENFINESTRAT _______
## 
## Call:
## arima(x = lnserie_enf, order = c(1, 0, 1), seasonal = list(order = c(0, 1, 1), 
##     period = 12))
## 
## Coefficients:
##          ar1      ma1     sma1
##       0.9296  -0.5975  -0.7147
## s.e.  0.0295   0.0565   0.0467
## 
## sigma^2 estimated as 0.01709:  log likelihood = 165.58,  aic = -323.16
## -------------------------
## Els coeficients tenen la mateixa significància?
##  ar1  ma1 sma1 
## TRUE TRUE TRUE
## Els coeficients tenen el mateix signe?
##  ar1  ma1 sma1 
## TRUE TRUE TRUE
## Diferència entre coeficients:
##           ar1           ma1          sma1 
## -2.906163e-05 -9.592036e-03 -5.949678e-03

El segon model també el podem considerar estable ja que compleix les 3 condicions que hem establert prèviament: mateixa significància de coeficients, mateix signe de coeficients i poca diferència entre aquests.

Primer ajustem el tercer model per després estudiar la seva estabilitat:

## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), 
##     period = 12))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4     ar5     ar6      ar7     sar1
##       0.2463  0.2828  0.2769  -0.0708  0.0452  0.1033  -0.1143  -0.6531
## s.e.  0.0603  0.0619  0.0650   0.0678  0.0644  0.0634   0.0617   0.0640
##          sar2
##       -0.3167
## s.e.   0.0609
## 
## sigma^2 estimated as 0.01696:  log likelihood = 167.58,  aic = -315.17
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE TRUE

Primer hem eliminat el coeficient intercept del model enfinestrat i ara proseguirem amb l’eliminació de la resta de coeficients no significatius que trobem al model. Començant pel coeficient \(ar5\) ja que té la significància més petita.

## Warning in arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order =
## c(2, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), 
##     period = 12), fixed = c(NA, NA, NA, NA, 0, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4  ar5     ar6      ar7     sar1     sar2
##       0.2415  0.2969  0.2868  -0.0680    0  0.1112  -0.1030  -0.6557  -0.3169
## s.e.  0.0600  0.0585  0.0636   0.0678    0  0.0624   0.0596   0.0638   0.0608
## 
## sigma^2 estimated as 0.017:  log likelihood = 167.34,  aic = -316.67
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE TRUE TRUE

Es pot apreciar que aquest nou model és millor que l’anterior ja que veiem com el valor del AIC ha millorat, sempre que vagi millorant aquest aspecte del model seguirem descartant coeficients que no siguin prou significatius. Ara el coeficient més petit és el \(ar4\).

## Warning in arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order =
## c(2, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), 
##     period = 12), fixed = c(NA, NA, NA, 0, 0, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sar1     sar2
##       0.2251  0.2851  0.2800    0    0  0.0979  -0.1235  -0.6456  -0.3163
## s.e.  0.0579  0.0575  0.0634    0    0  0.0612   0.0560   0.0633   0.0609
## 
## sigma^2 estimated as 0.01707:  log likelihood = 166.83,  aic = -317.67
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE TRUE TRUE TRUE

L’AIC segueix millorant per tant confirmem que aquest model és millor que l’anterior. El nou coeficient que considerarem eliminar ara és el \(ar6\).

## Warning in arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order =
## c(2, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), 
##     period = 12), fixed = c(NA, NA, NA, 0, 0, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5  ar6      ar7     sar1     sar2
##       0.2302  0.2859  0.3170    0    0    0  -0.0909  -0.6329  -0.3125
## s.e.  0.0581  0.0578  0.0595    0    0    0   0.0524   0.0634   0.0611
## 
## sigma^2 estimated as 0.01723:  log likelihood = 165.56,  aic = -317.12
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE TRUE TRUE

Observem com el nostre AIC ha empitjorat lleugerament en comparació al model anterior, això significa que ens interessa quedar-nos amb aquest coeficient encara que no sigui estrictament significatiu.

## _______ MODEL 3 _______
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), period = 12), 
##     fixed = c(NA, NA, NA, 0, 0, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sar1     sar2
##       0.2116  0.2868  0.2802    0    0  0.0984  -0.1121  -0.6641  -0.2916
## s.e.  0.0568  0.0560  0.0621    0    0  0.0606   0.0558   0.0620   0.0601
## 
## sigma^2 estimated as 0.0172:  log likelihood = 173.18,  aic = -330.37
## _______ MODEL 3 ENFINESTRAT _______
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(2, 1, 0), 
##     period = 12), fixed = c(NA, NA, NA, 0, 0, NA, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sar1     sar2
##       0.2251  0.2851  0.2800    0    0  0.0979  -0.1235  -0.6456  -0.3163
## s.e.  0.0579  0.0575  0.0634    0    0  0.0612   0.0560   0.0633   0.0609
## 
## sigma^2 estimated as 0.01707:  log likelihood = 166.83,  aic = -317.67
## -------------------------
## Els coeficients tenen la mateixa significància?
##  ar1  ar2  ar3  ar6  ar7 sar1 sar2 
## TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## Els coeficients tenen el mateix signe?
##  ar1  ar2  ar3  ar6  ar7 sar1 sar2 
## TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## Diferència entre coeficients:
##           ar1           ar2           ar3           ar6           ar7 
## -0.0135452624  0.0017321949  0.0002085026  0.0005036709  0.0114400908 
##          sar1          sar2 
## -0.0185207927  0.0247086080

Confirmem que els dos models tenen els coeficients amb la mateixa significància i el mateix signe. A més veiem com la diferència entre els coeficients és prou petita com per considerar-la negligible, tenint un màxim de \(0.0247\) en el cas del coeficient \(sar2\).

Ara farem el mateix ajust i estudi pel quart model.

## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), 
##     period = 12))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4     ar5     ar6      ar7     sma1
##       0.2786  0.2906  0.2285  -0.0765  0.0686  0.1100  -0.0942  -0.7039
## s.e.  0.0604  0.0624  0.0647   0.0672  0.0651  0.0639   0.0616   0.0488
## 
## sigma^2 estimated as 0.0161:  log likelihood = 173.76,  aic = -329.52
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE

Podem veure com tenim un gran nombre de coeficients que no són significatius a aquest model, ara per ajustar-ho eliminarem aquests coeficients un a un començant des del que té la menor significància, en el cas que el nostre model millorés sabrem que aquest coeficient s’ha d’eliminar.

El primer coeficient que hem eliminat ha estat el coeficient intercept i ara el següent que eliminarem serà el coeficient \(ar5\).

## Warning in arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order =
## c(0, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), 
##     period = 12), fixed = c(NA, NA, NA, NA, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3      ar4  ar5     ar6      ar7     sma1
##       0.2720  0.3089  0.2436  -0.0694    0  0.1221  -0.0782  -0.7029
## s.e.  0.0602  0.0600  0.0633   0.0671    0  0.0630   0.0598   0.0488
## 
## sigma^2 estimated as 0.01617:  log likelihood = 173.2,  aic = -330.41
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE FALSE TRUE

Com el criteri AIC ha millorat en comparació a l’anterior model sabem que estem fent canvis correctes al model.

El següent coeficient que considerem eliminar per millorar el model és el \(ar4\).

## Warning in arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order =
## c(0, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), 
##     period = 12), fixed = c(NA, NA, NA, 0, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sma1
##       0.2569  0.2956  0.2359    0    0  0.1080  -0.0965  -0.6971
## s.e.  0.0586  0.0587  0.0630    0    0  0.0617   0.0573   0.0487
## 
## sigma^2 estimated as 0.01624:  log likelihood = 172.67,  aic = -331.34
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE FALSE TRUE

Un altre cop confirmem que era necessari treure aquest coeficient per la millora que obtenim en el AIC del model.

Ara el coeficient que ens interessa eliminar del model serà el coeficient \(ar7\).

## Warning in arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order =
## c(0, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), 
##     period = 12), fixed = c(NA, NA, NA, 0, 0, NA, 0, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6  ar7     sma1
##       0.2463  0.2773  0.2370    0    0  0.0676    0  -0.7104
## s.e.  0.0586  0.0580  0.0632    0    0  0.0572    0   0.0469
## 
## sigma^2 estimated as 0.0164:  log likelihood = 171.26,  aic = -330.52
## - Significància dels coeficients:  TRUE TRUE TRUE FALSE TRUE

Ara veiem un empitjorament en el AIC d’aquest model, senyal que no podem descartar aquest últim coeficient.

Ens quedarem amb l’anterior model per fer l’estudi d’estabilitat.

## _______ MODEL 4 _______
## 
## Call:
## arima(x = lnserie, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), period = 12), 
##     fixed = c(NA, NA, NA, 0, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sma1
##       0.2422  0.2978  0.2380    0    0  0.1073  -0.0876  -0.7061
## s.e.  0.0574  0.0571  0.0614    0    0  0.0613   0.0570   0.0484
## 
## sigma^2 estimated as 0.01637:  log likelihood = 179.1,  aic = -344.2
## _______ MODEL 4 ENFINESTRAT _______
## 
## Call:
## arima(x = lnserie_enf, order = c(7, 0, 0), seasonal = list(order = c(0, 1, 1), 
##     period = 12), fixed = c(NA, NA, NA, 0, 0, NA, NA, NA))
## 
## Coefficients:
##          ar1     ar2     ar3  ar4  ar5     ar6      ar7     sma1
##       0.2569  0.2956  0.2359    0    0  0.1080  -0.0965  -0.6971
## s.e.  0.0586  0.0587  0.0630    0    0  0.0617   0.0573   0.0487
## 
## sigma^2 estimated as 0.01624:  log likelihood = 172.67,  aic = -331.34
## -------------------------
## Els coeficients tenen la mateixa significància?
##  ar1  ar2  ar3  ar6  ar7 sma1 
## TRUE TRUE TRUE TRUE TRUE TRUE
## Els coeficients tenen el mateix signe?
##  ar1  ar2  ar3  ar6  ar7 sma1 
## TRUE TRUE TRUE TRUE TRUE TRUE
## Diferència entre coeficients:
##           ar1           ar2           ar3           ar6           ar7 
## -0.0147273381  0.0021972010  0.0021192440 -0.0007230007  0.0088564801 
##          sma1 
## -0.0089538967

Podem confirmar la estabilitat d’aquest model ja que no tenim cap coeficient amb una significància diferent en comparació al model ajustat fent servir la sèrie enfinestrada. A més, tots tenen el mateix signe i la diferència entre ells és prou petita.

CONCLUSIONS:

Tots els models presenten estabilitat.

Avaluació de la capacitat predicció

Abans d’obtenir les prediccions pel darrer any, cal destacar que en tots els casos aplicarem la funció exponencial per desfer la transformació logarítmica inicial i així poder poder analitzar els resultats respecte la sèrie original.

Amb el RMSPE i MAPE som capaços de comparar els models basant-nos en els errors que s’han fet al predir, ja que estem predint el darrer any i tenim dades d’aquest.

Mentre que el RMSPE indica, en tant percent, l’arrel de l’error del valor observat, el MAPE mesura l’error promig en forma de percentatge. Són interessants perquè permeten fer una quantificació de l’error sense tenir en compte les unitats en les que treballa el model.

\[ RMSPE = \sqrt{\dfrac{1}{n}\sum_{i = 1}^{n}\left( \dfrac{\theta - \hat\theta}{ \theta}\right)^2} \] Fórmula del MAPE:

\[ MAPE = \dfrac{1}{n}\sum_{i = 1}^{n}\left\vert\dfrac{\theta - \hat\theta}{\theta}\right\vert \]

  • Prediccions pel primer model:

## [1] "RMSPE pel model 1: 14.666586 %"
## [1] "MAPE pel model 1: 11.824833 %"
## [1] "La mitjana de les amplades dels intervals de predicció pel model 1 és: 122.629460"

El que podem veure és que les prediccions creades amb aquest model no són gaire precises ja que obtenim un RMSPE i MAPE superiors al \(10 \%\). Podem observar com gran part de les nostres prediccions (representat en vermell al gràfic) s’allunyen considerablement dels valors observats reals.

Tenir un interval de predicció molt gran significa que hi ha més possibilitats que s’ajusti una predicció que no s’adapta al comportament de la sèrie. En aquest cas veiem com el nostre interval de predicció és considerablement gran, \(122.629492\). Ens confirma que aquest model no és molt precís a l’hora de fer prediccions sobre la sèrie.

## [1] "RMSPE pel model 2: 12.973008 %"
## [1] "MAPE pel model 2: 9.895183 %"
## [1] "La mitjana de les amplades dels intervals de predicció pel model 2 és: 116.540283"

El segon model veiem que té una millor capacitat predictora. Es veu reflectit en la disminució del RMSPE i MAPE en comparació al primer model. Encara que veiem una millora aquest model també té valors bastant elevats, tant de RSMPE i MAPE com d’amplada de l’interval de predicció, i, en conseqüència no podem afirmar que sigui un bon model predictor.

## [1] "RMSPE pel model 3: 14.476428 %"
## [1] "MAPE pel model 3: 11.643986 %"
## [1] "La mitjana de les amplades dels intervals de predicció pel model 3 és: 122.532306"

Amb el tercer model veiem un altre cop valors de RMSPE i MAPE similars al primer model, encara que es nota una millora lleugera.Tal com passa amb el primer model no podem dir que és un model adequat per fer prediccions.

## [1] "RMSPE pel model 4: 12.832893 %"
## [1] "MAPE pel model 4: 9.818921 %"
## [1] "La mitjana de les amplades dels intervals de predicció pel model 4 és: 117.241752"

Aquest és el model que millor prediu les dades observades jutjant pels valors del RMSPE i el MAPE. A més, com és d’esperar, l’interval de predicció és el més petit dels quatre.

Tria del model

  • Selecciona el millor model per fer les previsions

Cap dels quatre models compleix els tres requisits pels residus (variància constant, normalitat dels residus i independència dels residus). El primer model és el que més proper es troba de complir la normalitat dels residus i el model quatre és, amb diferència, el model més proper a tenir independència dels residus.

Tots els models són causals, invertibles i estables, per tant, en aquesta faceta no hi ha cap model millor que els altres.

Per saber quin serà el model que millors prediccions produirà ens podem fixar en els valors de les arrels \(MA\)/\(AR\). Quan més propera,però no igual, sigui l’arrel al cercle unitàri, millors prediccions farà el model. Basant-nos en aquest fet, el millor model seria el segon (té arrels amb valors de fins \(1.027\)), seguit pel quart model (que arriba a tenir arrels amb valors \(1.029\)).

Prenent en consideració les característiques mencionades, escollirem el quart model per fer prediccions, ja que és el que té una millor validació dels residus. A més, el model \(4\) és el que té un millor AIC i és el segon model amb millor BIC. Pel que fa a les mesures de predicció \(MAPE\) i \(RMSPE\) també és el model amb inferior percentatge d’error observat i el segon amb menor amplada d’intervals de confiança.

Així doncs, predirem usant el model: \(\bf{SARIMA(7,0,0)(0,0,1)_{12}}\)

d) Previsions

  • Obteniu les previsions a llarg termini per els \(12\) mesos posteriors a la última observació, amb l’interval de confiança corresponent

Som conscients que les prediccions que obtindrem no s’ajustaran de manera molt precisa ja que els paràmetres \(MAPE\) i \(RMSPE\) són massa elevats. Això no obstant, seran les millors possibles d’entre els models plantejats.

## Prediccions per l'any 2019
##            Jan       Feb       Mar       Apr       May       Jun       Jul
## 2019 168.95346 209.46840 196.95055 187.61208 216.70502 204.99222 185.43093
##            Aug       Sep       Oct       Nov       Dec
## 2019  60.55173 180.35522 191.41893 200.94002 121.02674

## [1] "La mitjana de les amplades dels intervals de predicció pel model 4 és: 107.964020"

Podem veure que l’interval de predicció ha disminuit en comparació a la predicció que hem realitzat en l’exercici anterior. Creiem que això és causat pel fet de tenir més informació disponible que ajuda a fer prediccions més precises i tenir un millor model. Podem veure aquesta idea en el fet que l’AIC del model enfinestrat empitjora comparant-lo amb l’AIC del model amb totes les dades.

D’altra banda sembla que la seva forma d’aquesta predicció coincideix més amb les dades observades de l’any anterior.

En concret, el mes de Gener es prediu amb un valor per sota del mes de Gener de l’any \(2018\) atès que la darrera observació de la sèrie, Decembre del \(2018\), es troba en nivells inferiors respecte altres anys.

Les prediccions s’han fet tenint una sèrie contaminada per valors atípics, així que en el següent apartat es localitzaran i s’eliminaran de la sèrie.

e) Tractament d’atípics

Detecció automàtica

  • Per l’últim model seleccionat, aplica la detecció automàtica d’atípics. Intenta la interpretació dels atípics detectats.

Per realitzar la detecció automàtica d’atípics, usarem el fitxer proporcionat que conté algunes funcions.

## List of 3
##  $ atip  :'data.frame':  14 obs. of  4 variables:
##   ..$ Obs          : int [1:14] 104 248 260 164 188 181 180 56 16 151 ...
##   ..$ type_detected: chr [1:14] "LS" "LS" "LS" "LS" ...
##   ..$ W_coeff      : num [1:14] 0.404 -0.353 -0.348 0.312 0.327 ...
##   ..$ ABS_L_Ratio  : num [1:14] 3.96 3.51 3.52 3.23 3.46 ...
##  $ sigma2: num 0.00916
##  $ resid : Time-Series [1:300] from 1994 to 2019: 0.00493 0.00512 0.00519 0.00541 0.00523 ...

Un cop feta la detecció automàtica, compararem la variància respecte la que teníem anteriorment. En cas que la seva variància sigui més petita que la del model inicial escollit, la variància residual també disminuïrà, i per tant, el que hauria de passar és que es reduís el nombre de residus que s’allunyen més de tres desviacions estàndard de la mitjana.

## Atípics
##    Obs type_detected    W_coeff ABS_L_Ratio
## 1  104            LS  0.4040782    3.958804
## 2  248            LS -0.3525519    3.507831
## 3  260            LS -0.3483934    3.520747
## 4  164            LS  0.3116421    3.233705
## 5  188            LS  0.3270587    3.460368
## 6  181            LS -0.3283794    3.546430
## 7  180            LS -0.3310186    3.653822
## 8   56            LS  0.3078501    3.465729
## 9   16            TC -0.2605845    3.393001
## 10 151            AO -0.1966973    3.393028
## 11 296            AO  0.2044158    3.278940
## 12 279            AO  0.1936091    3.332255
## 13 182            LS -0.2588287    3.188118
## 14 171            AO -0.1670378    3.084129
## Variància
## [1] 0.009157435

Ordenarem els atípics del model en funció de les observacions que els contenen. D’aquesta manera podrem fer un millor estudi. A més, imputarem els mesos de l’any i les dates corresponents a les observacions atípiques per intentar donar-los alguna explicació.

##    Obs type_detected    W_coeff ABS_L_Ratio     Data    Efecte
## 9   16            TC -0.2605845    3.393001 Abr 1995  77.06011
## 8   56            LS  0.3078501    3.465729 Ago 1998 136.04970
## 1  104            LS  0.4040782    3.958804 Ago 2002 149.79211
## 10 151            AO -0.1966973    3.393028 Jul 2006  82.14393
## 4  164            LS  0.3116421    3.233705 Ago 2007 136.56658
## 14 171            AO -0.1670378    3.084129 Mar 2008  84.61676
## 7  180            LS -0.3310186    3.653822 Dec 2008  71.81918
## 6  181            LS -0.3283794    3.546430 Ene 2009  72.00898
## 13 182            LS -0.2588287    3.188118 Feb 2009  77.19553
## 5  188            LS  0.3270587    3.460368 Ago 2009 138.68829
## 2  248            LS -0.3525519    3.507831 Ago 2014  70.28921
## 3  260            LS -0.3483934    3.520747 Ago 2015  70.58211
## 12 279            AO  0.1936091    3.332255 Mar 2017 121.36218
## 11 296            AO  0.2044158    3.278940 Ago 2018 122.68082

La variable W_coeff el que ens permet és determinar si un valor té un valor superior o inferior respecte el que li tocaria.

Si W_coeff\(< 0\) aleshores implicarà una disminució en el nivell de producció de turismes respecte l’esperat.

L’atípic que es troba en uns nivells més alts respecte el que li tocaria és la observació \(104\), amb un efecte del \(149.79\%\) sobre la sèrie. Contràriament, el que es troba més per sota és la observació \(180\), amb un W_coeff = \(-0.33\).

Veiem com la gran majoria d’atípics són de tipus Level Shift, fet que implica que el nivell de la sèrie no es va recuperar després d’aquests. Per aquest motiu, intuïm que la sèrie linealitzada, és a dir, sense la presència dels atípics detectats, serà bastant diferent de la sèrie original.

Una gran part dels atípics detectats es situen al entre els anys \(2008\) i \(2009\). Això és a causa de la la forta cris en la qual es va veure submergida el país, fet que va obligar a reduir la producció d’automòbils. D’altra banda, hem trobat articles que parlen sobre outliers específics de la nostra sèrie. En concret, aquest article fa menció de l’additive outlier que trobem a l’Agost de 2018, quan es va experimentar un creixement sobtat durant el mes causat per la tendència a l’alça que s’arrossegava.

Més enllà dels Level Shift, veiem que la observació \(16\) és de tipus Transitory Change (el canvi es corregeix amb el temps) i un parell que són Aditive Outliers (l’atípic només dura un instant de temps).

Traiem els atípics i linealitzem la sèrie per aconseguir tenir-la neta d’atípics: \[ X_{lin} = X_t - \sum_{k = 0}^K w_k\cdot Ind_{t_0}^{type}(t) \]

Per tal de veure l’efecte que ha tingut linealitzar la sèrie, és a dir, realitzarem la següent gràfica:

Veiem com efectivament la sèrie original (negre) i la linealitzada (vermella) difereixen molt per la alta aparició d’atípics de tipus Level Shift. Aquest fet també es pot comprovar a continuació.

En aquest gràfic veiem de manera més clara la abundància d’outliers de tipus level shift que tenim a la sèrie, conjuntament amb els altres dos tipus d’atípics.

Previsions de la sèrie linealitzada

  • Un cop linealitzada la sèrie, obteniu les previsions per la sèrie original mitjançant el model per la sèrie linealitzada i compara-les amb les obtingudes anteriorment.

Per confirmar que no es tracta d’una sèrie estacionària, primerament mirarem la gràfica d’ACF.

S’observa una forta correlació entre la sèrie i el seu passat. L’estructura de correlació depèn de l’instant inicial perquè les barres decreixen lentament. Això significa que caldrà aplicar una o més transformacions per aconseguir mitjana constant, variància constant i estructura de correlació independent de l’inici.

Aplicarem la metodologia Box-Jenkins, tal com hem fet anteriorment.

S’observa un fort efecte megàfon ja que la variància augmenta a mesura que el nombre de turismes fabricats augmenta. Visualment, aquest fet es nota quan el rang interquartílic de les diferents capses del boxplot augmenta per valors alts d’aturats. Apliquem una transformació logarítmica (Box-Cox amb \(\lambda = 0\)) per corregir la variància.

Després de la transformació veiem que la variància de sèrie s’ha corregit i podem considerar-la constant.

El següent pas és estudiar l’estacionalitat de la sèrie.

Els indicadors de la mitjana no formen una línia horitzontal, fet que ens fa pensar que tindrem un patró estacional causat per una baixada en la producció durant l’agost.

Per corregir el patró estacional aplicarem una diferenciació estacional de freqüència \(12\) al tractar-se de dades mensuals.

Comprovem la correcció del patró estacional.

Es veu com efectivament s’ha corregit l’estacionalitat atès que els indicadors de les mitjanes mensuals es troben alineats. A més veiem com la mitjana és molt propera a ser nul·la, fet que ens servirà més endavant per eliminar el coeficient intercept dels models proposats. A continuació, procedirem a fer el darrer estudi per aconseguir una sèrie estacionària.

Per confirmar si la sèrie necessita diferenciacions regulars per tenir mitjana constant, ens fixarem en un possible augment en la variància al diferenciar. Si aquesta augmenta, no aplicarem la transformació. Del contrari, repetirem el procés fins a trobar l’instant en què la variància augmenti després de fer una diferenciació regular.

## [1] "La variància sense aplicar cap diferenciació regular és: 0.074571"
## [1] "La variància aplicant una diferenciació regular és: 0.030413"
## [1] "La variància aplicant dues diferenciacions regular és: 0.084020"

Cal aplicar una diferenciació regular per corregir la mitjana no constant de la sèrie linealitzada.

Un cop aplicada, hem aconseguit transformar la sèrie linealitzada a estacionària \(\Big(W_t = (1-B)(1-B^{12})\cdot \log(X_{lin})\Big)\), obtenint com a resultat:

Seguidament estudiarem l’ACF i PACF per escollir alguns models.

Per la construcció del model, separarem l’estudi de la part estacional i l’estudi de la part regular.

  • Part estacional (ens fixem únicament en les barres vermelles dels gràfics):

Considerarem que les mostres corresponents al període estacional del ACF són infinites. Descartarem un model MA i proposem un AR(2) en la part estacional de la sèrie.

  • Part regular (ens fixem únicament en les barres negres dels gràfics):

Per la forma que tenen els gràfics considerem que tant l’ACF com el PACF són infinits a la part regular. Per això proposem un ARMA(1,1) en la part regular.

Juntant les dues parts obtemin un model: \(\boxed{\bf{SARIMA(1,0,1)(2,0,0)_{12}}}\).

El que farem és proposar aquest model i anirem incrementant els paràmetres del ARMA(1,1) en cas que no millori les propietats del model escollit per predir.

Inicialment el model que tenim és:

## 
## Call:
## arima(x = d1d12lnserie_lin, order = c(1, 0, 1), seasonal = list(order = c(2, 
##     0, 0), period = 12))
## 
## Coefficients:
##           ar1      ma1     sar1     sar2  intercept
##       -0.2170  -0.2120  -0.5324  -0.2745    -0.0007
## s.e.   0.1161   0.1108   0.0584   0.0587     0.0031
## 
## sigma^2 estimated as 0.01968:  log likelihood = 154.24,  aic = -296.47
## - Significància dels coeficients:  FALSE FALSE TRUE TRUE FALSE

Eliminem el coeficient intercept.

## 
## Call:
## arima(x = lnserie_lin, order = c(1, 1, 1), seasonal = list(order = c(2, 1, 0), 
##     period = 12))
## 
## Coefficients:
##           ar1      ma1     sar1     sar2
##       -0.2170  -0.2118  -0.5324  -0.2745
## s.e.   0.1161   0.1108   0.0584   0.0587
## 
## sigma^2 estimated as 0.01969:  log likelihood = 154.21,  aic = -298.42
## - Significància dels coeficients:  FALSE FALSE TRUE TRUE

Eliminem el primer coeficient, perquè no és significatiu i és el que té una \(t\)-ràtio inferior:

## Warning in arima(x = lnserie_lin, order = c(1, 1, 1), seasonal = list(order =
## c(2, : some AR parameters were fixed: setting transform.pars = FALSE
## 
## Call:
## arima(x = lnserie_lin, order = c(1, 1, 1), seasonal = list(order = c(2, 1, 0), 
##     period = 12), fixed = c(0, NA, NA, NA))
## 
## Coefficients:
##       ar1      ma1     sar1     sar2
##         0  -0.3843  -0.5358  -0.2717
## s.e.    0   0.0493   0.0584   0.0587
## 
## sigma^2 estimated as 0.01989:  log likelihood = 152.74,  aic = -297.47
## - Significància dels coeficients:  TRUE TRUE TRUE

Com l’AIC empitjora, decidim no eliminar aquest coeficient.

Un cop hem afitat el model, farem la validació del model però sense entrar molt detalladament en l’explicació perquè en la primera part ja s’ha explicat profundament.

## La diferència entre el valor màxim dels residus i l'interval de confiança és:  0.0899552
## No sobrepassa la banda infeerior de confiança

Veiem com no es compleix la hipòtesis de variància constant dels residus perquè, tot i només sortir una observació de les bandes de confiança, l’ajust suau no és una recta horitzontal.

## 
##  Shapiro-Wilk normality test
## 
## data:  resi1_lin
## W = 0.98732, p-value = 0.009823

Tot i millorar la normalitat respecte els models plantejats abans de linealitzar, no podem acceptar-la per la presencia d’atípics en les cues, sobretot en la superior, i curtosi positiva en el centre.

## 
##  Box-Ljung test
## 
## data:  resi1_lin
## X-squared = 332.18, df = 72, p-value < 2.2e-16

Només hi ha independència dels residus en les dues primeres observacions, la resta ja estan correlades.

Atès que no s’ha validat cap de les hipòtesis dels residus, hem anat incrementant l’\(ARMA(1,1)\) i hem anat observant que models amb \(ARMA(2,1)\), \(ARMA(2,2)\), \(ARMA(1,3)\) …, no complien cap de les hipòtesis. Després d’haver plantejat tots els models intermitjos (no els hem inclòs perquè considerem que no és rellevant pel projecte ja que és una part molt repetitiva), hem arribat a un model amb millors propietats: \(\boxed{\bf{SARIMA(2,0,3)(2,0,0)_{12}}}\)

## 
## Call:
## arima(x = d1d12lnserie_lin, order = c(2, 0, 3), seasonal = list(order = c(2, 
##     0, 0), period = 12))
## 
## Coefficients:
##           ar1      ar2     ma1     ma2      ma3     sar1     sar2  intercept
##       -1.1508  -0.9937  0.8302  0.6671  -0.2665  -0.6384  -0.3031    -0.0006
## s.e.   0.0080   0.0074  0.0555  0.0626   0.0573   0.0608   0.0612     0.0028
## 
## sigma^2 estimated as 0.01638:  log likelihood = 178.43,  aic = -338.86
## - Significància dels coeficients:  TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE

Menyspreem el coeficient intercept.

## 
## Call:
## arima(x = lnserie_lin, order = c(2, 1, 3), seasonal = list(order = c(2, 1, 0), 
##     period = 12))
## 
## Coefficients:
##           ar1      ar2     ma1     ma2      ma3     sar1     sar2
##       -1.1508  -0.9938  0.8304  0.6671  -0.2667  -0.6386  -0.3031
## s.e.   0.0080   0.0074  0.0555  0.0626   0.0573   0.0608   0.0612
## 
## sigma^2 estimated as 0.01638:  log likelihood = 178.41,  aic = -340.82
## - Significància dels coeficients:  TRUE TRUE TRUE TRUE TRUE TRUE TRUE

Com que tots els coeficients són significatius, prodecim a fer la validació dels residus.

## 
##  La diferència entre el valor màxim dels residus i l'interval de confiança és:  0.2055323
## 
##  La diferència entre el valor mínim dels residus i l'interval de confiança és:  0.002324588

Aquest model presenta una variància representada per una líniea quasi recta, i amb influència de diversos valors acumulats amb residus baixos cap l’any \(1995\). Atès que només se surt una observació de la regió de confiança i que ha passat molt temps des de l’acumulació de residus, creiem que seria possible acceptar variància constant en els residus. Després l’any \(2001\) aproximadament, la sèrie acaba la mateixa variància per totes les observacions. Cal destacar, però, que es trobem en un cas en què ambdues postures d’acceptació i rebuig de la hipòtesi estarien acceptades.

Estudiem la normalitat.

## 
##  Shapiro-Wilk normality test
## 
## data:  resi2_lin
## W = 0.98371, p-value = 0.001745

És evident que aquest model no té normalitat en els residus. S’aprecia per la forma de l’histograma i perquè el test de Shapiro-Wilk prèn un valor inferior a \(0.05\). Tenim un \(p\)-valor del test inferior al del primer model proposat per la sèrie linealitzada.

Estudiem la independència.

## 
##  Box-Ljung test
## 
## data:  resi2_lin
## X-squared = 63.79, df = 72, p-value = 0.7441

Al fixar-nos en el PACF i ACF ja sospitem que el model tindrà independència en els residus, fet que es verifica amb el test de Ljung-Box perquè no es veu correlació entre residus.

Amb la sèrie linealitzada hem obtingut per tant un model amb variància constant i independència dels residus, millorant molt la situació de la qual partíem abans de treure els atípics.

Seguidament fem les prediccions pel segon model.

Aquestes prediccions que hem obtingut no acaben de ser del tot correctes perquè no hem corregit l’impacte dels atípics LS, Per solventar-ho, el que farem és calcular els pesos de tots els LS i després sumar aquest pes a la predicció obtinguda. El resultat d’aplicar això és:

A simple vista sembla ser que la precisió de les prediccions no és molt alta. La sèrie presentava una gran quantitat d’atípics amb canvis de nivell molt sobtats, dificultant molt el tractament i la capacitat de predicció pels models proposats.

Veiem que el model usat per fer les prediccions sobre la sèrie linealitzada té un AIC pitjor que el proposat per la sèrie no linealitzada.

Per aconseguir millorar les validacions dels residus hem hagut d’afitar un model molt més complex. Fent això, hem pogut obtenir prediccions d’una sèrie complicada per la seva estructura i gran quantitat d’atípics.

Observem que l’interval de la regió de confiança ha augmentat una mica però que tot i així la predicció feta per l’any \(2019\) s’ajusta bastant a les observacions dels anys anteriors. Les prediccions fetes són més fiables perquè no consideren successos extranys que van fer modificar el comportament de la sèrie. En definitiva, hem aconseguit plantejar un model amb millors propietats dels residus i una sèrie linealitzada no contaminada pels atípics amb unes prediccions prou raonables en relació a les dades.